РГБ и Школа 21 провели хакатон
27—29 ноября 2020 года Российская государственная библиотека и «Школа 21» провели онлайн-хакатон по прикладному применению средств алгоритмической обработки текстов на русском языке.
87 человек из двух кампусов «Школы 21» в течение двух дней решали до сих пор пока «нерешаемую» задачу по созданию алгоритмов выявления необходимых данных из текстов подшивок газеты «Красная звезда» за 1941—1945 годы.
Перед участниками хакатона стояла задача представить программное решение, которое переводило бы в машиночитаемую форму все упоминания, которые относятся ко времени и датам, упоминаемых в подшивках: конкретные даты, исторические периоды, временные интервалы и так далее. Для английского языка подобные процедуры выполняются со сравнительно высокой точностью, например, с помощью Python-библиотеки duckling. В случае с русским — подходящего решения «из коробки» нет до сих пор.
Всего в хакатоне приняло участие 87 человек из двух кампусов «Школы 21». Они разделились на 34 команды. До финального этапа решений дошло 13 команд. Среди призёров — 6 команд, из которых три поделили между собой третье место и одна получила специальный приз за менеджмент процессов.
Состязающихся ждало множество подводных камней: им следовало учесть вероятность ошибок ввода, ошибок распознавания, разнобой в стандартах обозначения времени и даты, особенности морфологии и семантики русского языка: в статьях могут использоваться как точные формулировки формата «2 февраля 1944 года», так и менее очевидные: «во вторник через неделю» или «на прошлое 1 Мая».
Решение подобных задач имеет огромный потенциал прикладного применения — в первую очередь, непосредственно в Российской государственной библиотеке. Точное распознавание временных маркеров позволит сопоставлять описываемые в источниках события, имеющие хронологическую привязку, и кроме того, более тонко работать с семантикой текстов и причинно-следственными связями.
Станислав Кузнецов , заместитель Председателя Правления Сбербанка: «Сохранение памяти о подвигах нашего народа во времена Великой Отечественной войны — одна из прикладных и понятных абсолютно всем задач, которую можно ставить перед искусственным интеллектом. Сбербанк, используя свой технологический потенциал, уже предлагал цифровые решения для сбора данных о героях Великой Победы. Сегодня совместно с Российской государственной библиотекой мы значительно упростим поиск информации в, казалось бы, неподдающихся оцифровке легендарных подшивках прифронтовых газет».
Участникам была предоставлена полная свобода в выборе средств — так, не возбранялось использовать готовые библиотеки для обработки естественного языка и комбинировать их с собственноручно написанными алгоритмами.
За два дня хакатона большинство участников успели провести работу по чистке и обработке базового набора данных, собранного на основе архива газеты «Красная Звезда» за 1941—1945 годы. Отдельные команды при решении задачи преодолели 40 %-й порог точности. Следует отметить, что несколько команд, в которые входили преимущественно новички, предпочли действовать путём перебора, благодаря чему показали более высокие результаты (до 70 %).
Светлана Инфимовская , директор «Школы 21» : «Один из важных форматов работы для ʺШколы 21ʺ — проведение хакатонов на основе реальных задач. Мы вдохновились стремлением Российской государственной библиотеки решить одну очень сложную и важную задачу — оцифровать архивы ВОВ. Коллеги пошли на эксперимент и дали возможность нашим участникам в Москве и Казани за двое суток попробовать применить свои знания в области искусственного интеллекта, чтобы решить эту задачу. В итоге им удалось предложить технические решения, которые применимы в реальной жизни. Во время награждения один из участников ʺШколы 21ʺ даже получил предложение о работе».
Таким образом, в ходе хакатона лишний раз подтвердилось общее положение дел в области анализа больших данных: на небольших объёмах данных человек пока справляется с определением даты и времени лучше, чем программные средства для естественной обработки языка, в том числе основанные на машинном обучении. В случае же с по-настоящему большими данными зрелые подходы natural language processing всё актуальнее.
Организаторы хакатона со стороны Российской государственной библиотеки сошлись на необходимости продолжить начатую в ходе мероприятия работу. Одним из последующих шагов станет создание открытого репозитория с программными решениями для распознавания и анализа временных конструкций в русскоязычных текстах. Также по этой линии предварительно запланирована научно-инженерная работа в Лаборатории исследований и разработки НЭБ, к которой предполагается привлечь и показавших наиболее примечательные результаты участников хакатона.
Библиотечные и архивные фонды — настоящее богатство, память и история нашей страны. Не всегда события видятся современниками в должном масштабе, не всегда оценивается их влияние на дальнейший ход истории. Вызов современного информационного общества — встроить наши документы, информацию, знания в цифровое пространство. Конкретная и очень непростая задача, которую мы пытаемся решить в рамках хакатона — это оцифровка и «разметка» газетного фонда. В результате мы получаем из скана газетной полосы невероятно ценный информационный массив для работы. Фактически, мы создаем основу совершенно нового библиотечного направления — цифровой библиографии!
Вадим Дуда , генеральный директор Российской государственной библиотеки